The two popular datasets ScanRefer [16] and ReferIt3D [3] connect natural language to real-world 3D data. In this paper, we curate a large-scale and complementary dataset extending both the aforementioned ones by associating all objects mentioned in a referential sentence to their underlying instances inside a 3D scene. Specifically, our Scan Entities in 3D (ScanEnts3D) dataset provides explicit correspondences between 369k objects across 84k natural referential sentences, covering 705 real-world scenes. Crucially, we show that by incorporating intuitive losses that enable learning from this novel dataset, we can significantly improve the performance of several recently introduced neural listening architectures, including improving the SoTA in both the Nr3D and ScanRefer benchmarks by 4.3% and 5.0%, respectively. Moreover, we experiment with competitive baselines and recent methods for the task of language generation and show that, as with neural listeners, 3D neural speakers can also noticeably benefit by training with ScanEnts3D, including improving the SoTA by 13.2 CIDEr points on the Nr3D benchmark. Overall, our carefully conducted experimental studies strongly support the conclusion that, by learning on ScanEnts3D, commonly used visio-linguistic 3D architectures can become more efficient and interpretable in their generalization without needing to provide these newly collected annotations at test time. The project's webpage is https://scanents3d.github.io/ .
translated by 谷歌翻译
我们提出了一种新颖的生成方法,用于创建城市规模的路线。虽然最近方法的输出在覆盖区域的大小和多样性的尺寸上都受到限制,但我们的框架可产生大量的高质量遍历图,这些图形由顶点和边缘组成,这些边缘和边缘代表了覆盖400平方公里或更多的完整街道网络。尽管我们的框架可以处理一般的2D嵌入式图,但由于培训数据的广泛可用性,我们专注于街道网络。我们的生成框架由一个变压器解码器组成,该解码器以滑动窗口方式用于预测索引字段,每个索引编码本地邻域的表示形式。每个索引的语义由上下文向量的字典确定。然后将索引字段输入到解码器以计算街道图。使用OpenStreetMap的数据,我们在整个城市甚至在美国等大国中训练我们的系统,并最终将其与最新技术进行比较。
translated by 谷歌翻译
用非侵入性方法评估建筑物的结构是一个重要问题。可能的方法之一是使用Georadar通过分析从扫描获得的数据来检查墙壁结构。我们提出了一种数据驱动的方法,以评估壁从其GPR雷克拉姆斯的材料组成。为了生成培训数据,我们使用GPRMAX对扫描过程进行建模。使用仿真数据,我们使用卷积神经网络来预测每层墙壁的厚度和介电性能。我们评估了受过训练的模型的概括能力,这些模型对从真实建筑物收集的数据进行了评估。
translated by 谷歌翻译
线云虽然在先前的工作中受到评价不足,但与从多视图图像中提取的点云相比,可能对建筑物的结构信息进行了更紧凑的结构信息。在这项工作中,我们建议第一个处理用于构建线框抽象的线云的网络。该网络将线云作为输入,即从多视图图像提取的3D线段的非结构和无序集,并输出基础建筑物的3D线框,该建筑物由稀疏的3D连接组组成,由线段连接, 。我们观察到一个线斑块,即一组相邻的线段,编码足够的轮廓信息,以预测潜在连接的存在甚至3D位置,以及两个查询连接之间的连通性的可能性。因此,我们引入了两层线斑变压器,以从采样线贴片中提取连接和连接性,以形成3D构建线框模型。我们还介绍了带有地面3D线框的多视图图像的合成数据集。我们广泛证明,在多个基线建筑重建方法上,我们的重建3D线框模型可显着改善。
translated by 谷歌翻译
生成建模的最新趋势是从2D图像收集中构建3D感知发电机。为了诱导3D偏见,此类模型通常依赖于体积渲染,这在高分辨率下使用昂贵。在过去的几个月中,似乎有10幅以上的作品通过训练单独的2D解码器来修饰由纯3D发电机产生的低分辨率图像(或功能张量)来解决这个扩展问题。但是该解决方案是有代价的:它不仅打破了多视图的一致性(即相机移动时的形状和纹理变化),而且还以低忠诚度学习了几何形状。在这项工作中,我们表明可以通过遵循完全不同的途径,简单地训练模型贴片,以获得具有SOTA图像质量的高分辨率3D发电机。我们通过两种方式重新审视和改进此优化方案。首先,我们设计了一个位置和比例意识的歧视器来处理不同比例和空间位置的贴片。其次,我们基于退火beta分布来修改补丁采样策略,以稳定训练并加速收敛。所得的模型名为Epigraf,是一个高效,高分辨率的纯3D发电机,我们在四个数据集(在这项工作中引入两个)上测试了它,价格为$ 256^2 $和$ 512^2 $分辨率。它获得了最先进的图像质量,高保真的几何形状,并比基于UpSampler的同行训练$ {\ oft} 2.5 \ times $ $。项目网站:https://universome.github.io/epigraf。
translated by 谷歌翻译
神经渲染可用于在没有3D监督的情况下重建形状的隐式表示。然而,当前的神经表面重建方法难以学习形状的高频细节,因此经常过度厚度地呈现重建形状。我们提出了一种新的方法来提高神经渲染中表面重建的质量。我们遵循最近的工作,将表面模型为签名的距离字段。首先,我们提供了一个派生,以分析签名的距离函数,体积密度,透明度函数和体积渲染方程中使用的加权函数之间的关系。其次,我们观察到,试图在单个签名的距离函数中共同编码高频和低频组件会导致不稳定的优化。我们建议在基本函数和位移函数中分解签名的距离函数以及粗到最新的策略,以逐渐增加高频细节。最后,我们建议使用一种自适应策略,使优化能够专注于改善签名距离场具有伪影的表面附近的某些区域。我们的定性和定量结果表明,我们的方法可以重建高频表面细节,并获得比目前的现状更好的表面重建质量。代码将在https://github.com/yiqun-wang/hfs上发布。
translated by 谷歌翻译
在使用蓝噪声谱生产点分布的各种方法中,我们主张使用高斯内核进行优化框架。我们表明,通过明智的优化参数选择,这种方法达到了前所未有的质量,可证明超过了最佳运输(BNOT)方法所达到的最新技术状态。此外,我们表明我们的算法平稳缩放到高维度,同时保持相同的质量,并实现前所未有的高质量高维蓝噪声集。最后,我们显示了自适应采样的扩展。
translated by 谷歌翻译
这项工作评估了生成模型的质量度量的鲁棒性,例如INPECTION评分(IS)和FR \'Echet Inception距离(FID)。类似于深层模型对各种对抗性攻击的脆弱性,我们表明这种指标也可以通过添加剂像素扰动来操纵。我们的实验表明,可以生成分数很高但知觉质量低的图像分布。相反,人们可以优化对小型扰动,当将其添加到现实世界图像中时,会使他们的分数恶化。我们进一步将评估扩展到生成模型本身,包括最先进的网络样式。我们展示了生成模型和FID的脆弱性,反对潜在空间中的累加扰动。最后,我们证明,通过简单地以强大的启动来代替标准发明,可以强大地实现FID。我们通过广泛的实验来验证鲁棒度量的有效性,这表明它对操纵更为强大。
translated by 谷歌翻译
Stylegan的成功使得在合成和真实图像上启用了前所未有的语义编辑能力。然而,这种编辑操作要么是使用人类指导的语义监督或描述的培训。在另一个开发中,剪辑架构已被互联网级图像和文本配对培训,并且已被示出在几个零拍摄学习设置中有用。在这项工作中,我们调查了如何有效地链接样式登录和剪辑的预训练潜空间,这反过来允许我们从Stylegan,查找和命名有意义的编辑操作自动提取语义标记的编辑方向,而无需任何额外的人类指导。从技术上讲,我们提出了两块新颖的建筑块;一个用于查找有趣的夹子方向,一个用于在CLIP潜在空间中标记任意方向。安装程序不假设任何预定的标签,因此我们不需要任何其他监督文本/属性来构建编辑框架。我们评估所提出的方法的有效性,并证明了解标记标记的样式编辑方向的提取确实可能,并揭示了有趣和非琐碎的编辑方向。
translated by 谷歌翻译
我们为一个拍摄域适应提供了一种新方法。我们方法的输入是训练的GaN,其可以在域B中产生域A和单个参考图像I_B的图像。所提出的算法可以将训练的GaN的任何输出从域A转换为域B.我们的主要优点有两个主要优点方法与当前现有技术相比:首先,我们的解决方案实现了更高的视觉质量,例如通过明显减少过度装箱。其次,我们的解决方案允许更多地控制域间隙的自由度,即图像I_B的哪些方面用于定义域B.从技术上讲,我们通过在预先训练的样式生成器上建立新方法作为GaN和A用于代表域间隙的预先训练的夹模型。我们提出了几种新的常规程序来控制域间隙,以优化预先训练的样式生成器的权重,以输出域B中的图像而不是域A.常规方法防止优化来自单个参考图像的太多属性。我们的结果表明,对现有技术的显着视觉改进以及突出了改进控制的多个应用程序。
translated by 谷歌翻译